8 research outputs found

    Détection de mots clés et d'expressions régulières en vue de la reconnaissance d'entités nommées dans des documents manuscrits

    Get PDF
    This document presents a study on keyword and regular expression detection in handwritten documents, dedicated to a further named entity detection stage. Named entities such as name, surname, company name or numerical values often constitutes the main informative part of a document. Therefore, their detection may lead to a deep document understanding. Named entity detection is a difficult problem due to their variability, even on electronical texts. When dealing with image of handwritten documents, the problem is also faced with the recognition issue: intrinsic handwriting variability, noise, etc.The forst contribution of this manuscript is a handwriting recognition engine based on CRF. The second contribution is a generic word and regular expression spotting system. a benchmark of discriminative models is proposed, showing that the BLSTM-CTC clearly outperforms other hybrid methods.Les travaux présentés dans cette thèse concernent la détection de mots clés et d’expressions régulières en vue de la reconnaissance d’entités nommées dans des documents manuscrits non contraints. Les entités nommées telles que les noms et prénoms, les noms de compagnies ou les montants numériques constituent généralement une majeure partie de l’information d’un document. D’un point de vue industriel, la détection et la reconnaissance de ces entités nommées permettrait donc d’avoir une compréhension profonde du document traité. Les entités nommées sont des informations très variables, dont la définition dépend fortement du problème considéré. Les entités nommées liées à une problématique de tri du courier (nom et prénom de personne, type et nom de voie, nom de ville, code postal) sont par exemple différentes de celles liées à un problème de catégorisation de documents (lexique de mots clefs liés au domaine). Cette variabilité rend la détection des entitées nommées difficile. Lorsque l’on considère des images de documents, la détection et la reconnaissance des entités nommées est également confrontée à la problématiquede reconnaissance du texte, perturbée par la variablité de l’écriture (notamment sur les documents manuscrits), ainsi qu’au bruit lié à la numérisation.La première contribution de cette thèse est un système de reconnaissance de mots isolés basé sur un Champs Aléatoire Conditionnel (CAC), ce qui d’après notre bibliographie n’a pas encore été proposé. La deuxième contribution est un système générique de détection de mots clés et d’expressions régulières permettant de détecter n’importe quelle séquence dans une ligne de texte. Une structure se démarque des autres par ses performances etsa capacité à traiter des requêtes très difficiles, le BLSTM-CTC. Cette dernière semble être la clé de la résolution du problème initial

    Using BLSTM for Spotting Regular Expressions in Handwritten Documents

    No full text
    International audienc

    A Hybrid CRF/HMM Approach for Handwriting Recognition

    No full text
    International audienceIn this article, we propose an original hybrid CRF-HMM system for handwriting recognition. The main idea is to benefit from both the CRF discriminative ability and the HMM modeling ability. The CRF stage is devoted to the discrimination of low level frame representations, while the HMM performs a lexicon-driven word recognition. Low level frame representations are defined using n-gram codebooks and HOG descriptors. The system is trained and tested on the public handwritten word database RIMES

    Benchmarking discriminative approaches for word spotting in handwritten documents

    No full text
    International audienceIn this article, we propose to benchmark the most popular methods for word spotting in handwritten documents. The benchmark includes a pure HMM approach, as well as hybrid discriminative methods MLP-HMM, CRF-HMM, RNN-HMM and BLSTM-CTC-HMM. This study enables us to observe the increase ratio of performance provided by each discriminative stage compared with the pure generative HMM approach. Moreover, we put forward the different abilities of all these discriminative stages from the simplest MLP to the most complex and current state of the art BLSTM-CTC. We also propose a more specific and original study on BLSTM-CTC, showing that when used as a lexicon-free recognizer, it can reach very interesting word-spotting performance

    Spotting Handwritten Words and REGEX using a two stage BLSTM-HMM architecture

    No full text
    International audienceIn this article, we propose a hybrid model for spotting words and regular expressions (REGEX) in handwritten documents. The model is made of the state-of-the-art BLSTM (Bidirectional Long Short Time Memory) neural network for recognizing and segmenting characters, coupled with a HMM to build line models able to spot the desired sequences. Experiments on the Rimes database show very promising results

    Exploring multiple feature combination strategies with a recurrent neural network architecture for off-line handwriting recognition

    No full text
    International audienceThe BLSTM-CTC is a novel recurrent neural network architecture that has outperformed previous state of the art algorithms in tasks such as speech recognition or handwriting recognition. It has the ability to process long term dependencies in temporal signals in order to label unsegmented data. This paper describes different ways of combining features using a BLSTM-CTC architecture. Not only do we explore the low level combination (feature space combination) but we also explore high level combination (decoding combination) and mid-level (internal system representation combination). The results are compared on the RIMES word database. Our results show that the low level combination works best, thanks to the powerful data modeling of the LSTM neurons
    corecore